Antes de iniciar este trabalho, é necessário descompactar os arquivos de dados e executar o script de tratamento.
> tar -zxvf P00000001-TX.tgz
> tar -zxvf P00000001-NY.tgz
> python tratarDados.py
Para este projeto escolhi uma das bases de dados sugeridas pela Udacity: Financiamento da Campanha Presidencial dos EUA de 2016.
A idéia inicial era de se fazer a analise do estado de NY, no entanto havia uma discrepancia muito grande nas contibuições uma vez que o comite “HILLARY VICTORY FUND” foi responsável por 45% do valor financiado referente a este estado em apenas 23 das 649.460 contribuições registradas, sendo todas elas com valores acima de U$ 100.000. Este foi o único contribuinte que realizou contribuições acima deste valor. A maior contribuição abaixo deste valor de U$ 100.000 foi de U$ 11.816,25. Poderia ser feita uma remoção dos outliers, porém esta ação traria um dataset que não representa o conjunto de dados do estado.
#Verifica a distribuição dos valores de controbuições do dataset
summary(USACampaign$contb_receipt_amt)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -10100 15 27 264 100 12777706
USACampaign$contb_receipt_amt <- abs(USACampaign$contb_receipt_amt)
USACampaign$contb_range <- cut(USACampaign$contb_receipt_amt,
c(0, 100, 500, 2000, 50000,
max(USACampaign$contb_receipt_amt)))
#Verifica contribuintes com contribuições superiores a U$ 100.000
USACampaign[USACampaign$contb_receipt_amt >= 100000,]$contbr_nm
## [1] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [3] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [5] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [7] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [9] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [11] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [13] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [15] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [17] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [19] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [21] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [23] HILLARY VICTORY FUND - UNITEMIZED
## 119407 Levels: BLACKMORE, ANDI POTAMKIN ... ZYWICZYNSKI, JERRY MR.
#Valor máximo abaixo de U$ 100.000
max(USACampaign[USACampaign$contb_receipt_amt < 100000,]$contb_receipt_amt)
## [1] 11816.25
sum(USACampaign[USACampaign$contbr_nm == "HILLARY VICTORY FUND - UNITEMIZED",]$contb_receipt_amt)/sum(USACampaign$contb_receipt_amt)*100
## [1] 45.12158
dim(USACampaign[USACampaign$contbr_nm == "HILLARY VICTORY FUND - UNITEMIZED",])
## [1] 23 21
USACampaign$hillary_comitte <- ifelse(USACampaign$contbr_nm ==
"HILLARY VICTORY FUND - UNITEMIZED", "Y", "N")
Quando comparamos as contribuições do contribuinte HILLARY VICTORY FUND - UNITEMIZED e os demais contribuintes, vemos que o valor total das contribuições são próximos, porém as quantidade de contribuições da comite da Hillary são significamente menores.
Abaixo uma comparação entre a quantidade de contribuições realizadas por faixa de valor versus o total arrecadado. Percebe-se que existem epnas 23 doações acima de U$ 50.000 (praticamente não são exibidas no gráfico), mas elas representam uma grande parte no valor total de doações. Para que o histograma na maior faixa de valor (acima de 50.000) fosse exibido, gerei um gráfico com escala logaritima em y.
## # A tibble: 1 x 1
## n
## <int>
## 1 23
É possível notar também o impacto das contribuições de valores elevados quando comparamos os quartils dos valores com e sem estas contribuições, para cada candidato.
Esta discrepancia prejudicaria a avaliação das contribuições entre os candidatos e restringiria as analises dos dados. Desta forma optei por fazer a analise das contribuições feitas pelos eleitores do estado do TX, que traz uma distribuição mais homogenea nas contribuições.
Inicamos aqui a análise do dataset do estado do Texas (TX). Algumas verificações simples nesta base de dados nos aponta necessidade de tratamento das informações. Este tratamento será feito em um script a parte, em python tratarDados.py. Maiores detalhes sobre este tratamentos pode ser visualizado no arquivo Tratamento de dados.md.
## [1] 12084 19
## [1] 24 19
##
## DALLA DALLAA DALLAD DALLALS DALLAS
## 1 1 4 1 40656
## DALLAS TEXAS DALLAS TX DALLAS, DALLAS, TX DALLAS9
## 2 1 1 1 1
## DALLASTX DALLASV DALLLAS
## 1 2 1
## [1] 16600
## RETIRED NOT EMPLOYED
## 142978 29745 24405
## LAWYER SELF-EMPLOYED TEACHER
## 17517 13267 13119
## HOMEMAKER ENGINEER PHYSICIAN
## 11325 9016 8817
## SALES NURSE CONSULTANT
## 6943 5613 5519
## REAL ESTATE MANAGER ACCOUNTANT
## 5327 4851 4054
## SOFTWARE DEVELOPER CEO PRESIDENT
## 2896 2750 2386
## SOFTWARE ENGINEER RN STUDENT
## 2374 2372 2357
## CPA EXECUTIVE EDUCATOR
## 2081 2008 1866
## PROJECT MANAGER DIRECTOR WRITER
## 1710 1472 1425
## RANCHER TRUCK DRIVER MARKETING
## 1409 1403 1279
## OFFICE MANAGER INSURANCE PILOT
## 1262 1224 1167
## PHARMACIST ARTIST ADMINISTRATOR
## 1118 1096 1049
## PSYCHOLOGIST ANALYST GEOLOGIST
## 1049 1034 1030
## INVESTOR CONSTRUCTION FARMER
## 1021 1005 977
## CONTRACTOR LIBRARIAN PARALEGAL
## 970 966 945
## REFUSED CFO SOCIAL WORKER
## 922 901 880
## VICE PRESIDENT ARCHITECT DENTIST
## 859 857 843
## MANAGEMENT DISABLED IT
## 806 805 777
## FINANCE DRIVER BOOKKEEPER
## 754 739 720
## PASTOR MUSICIAN INVESTMENTS
## 716 715 704
## ELECTRICIAN BANKER SALES MANAGER
## 665 659 659
## IT MANAGER FINANCIAL ADVISOR DESIGNER
## 652 641 640
## MINISTER VETERINARIAN PHOTOGRAPHER
## 616 615 605
## GENERAL MANAGER PSYCHOTHERAPIST FLIGHT ATTENDANT
## 573 573 572
## GEOPHYSICIST GRAPHIC DESIGNER SECRETARY
## 572 569 567
## SCIENTIST TECHNICIAN ENTREPRENEUR
## 564 534 523
## PROPERTY MANAGER BUSINESS ANALYST SUPERVISOR
## 514 513 499
## RETAIL EDUCATION CLERK
## 484 480 477
## ADMINISTRATIVE ASSISTANT LEGAL ASSISTANT BUSINESS
## 471 470 469
## PHYSICAL THERAPIST ELECTRICAL ENGINEER HUMAN RESOURCES
## 468 456 456
## LANDMAN BANKING SOFTWARE
## 454 449 447
## EXECUTIVE DIRECTOR EXECUTIVE ASSISTANT ACCOUNT MANAGER
## 440 437 429
## SALES REPRESENTATIVE PARTNER (Other)
## 418 403 168005
## NA's
## 139
## Length Class Mode
## 0 NULL NULL
## [1] 548372 28
## [1] "cmte_id" "cand_id"
## [3] "cand_nm" "contbr_nm"
## [5] "contbr_city" "contbr_st"
## [7] "contbr_zip" "contbr_employer"
## [9] "contbr_occupation" "contb_receipt_amt"
## [11] "contb_receipt_dt" "receipt_desc"
## [13] "memo_cd" "memo_text"
## [15] "form_tp" "file_num"
## [17] "tran_id" "election_tp"
## [19] "X" "city"
## [21] "lon" "lat"
## [23] "party" "cmte_nm"
## [25] "cmte_dsgn" "contb_receipt_dt_day"
## [27] "contb_receipt_dt_month" "contb_receipt_dt_year"
## 'data.frame': 548372 obs. of 28 variables:
## $ cmte_id : Factor w/ 26 levels "C00458844","C00496034",..: 7 16 16 8 7 7 16 16 7 16 ...
## $ cand_id : Factor w/ 25 levels "P00003392","P20002671",..: 1 23 23 12 1 1 23 23 1 23 ...
## $ cand_nm : Factor w/ 25 levels "Bush, Jeb","Carson, Benjamin S.",..: 4 23 23 20 4 4 23 23 4 23 ...
## $ contbr_nm : chr "MILLARD, SUSAN C." "SELLERS, CHRISTINE" "SELLERS, DAVID" "LEONE, MICHELLE" ...
## $ contbr_city : chr "CORPUS CHRISTI" "FORT WORTH" "WILLIS" "NORTH RICHLAND HILLS" ...
## $ contbr_st : chr "TX" "TX" "TX" "TX" ...
## $ contbr_zip : chr "784112213" "76108" "77318" "761826749" ...
## $ contbr_employer : chr "N/A" "BAYLOR HEALTHCARE SYSTEM" "RETIRED" "NOT EMPLOYED" ...
## $ contbr_occupation : Factor w/ 17309 levels ""," COUNSELOR",..: 13427 10139 13427 10106 14283 13859 1 1 11331 7205 ...
## $ contb_receipt_amt : num 37.1 127.1 80 15 50 ...
## $ contb_receipt_dt : Date, format: "2016-04-16" "2016-09-28" ...
## $ receipt_desc : chr "" "" "" "" ...
## $ memo_cd : logi NA NA NA NA NA NA ...
## $ memo_text : logi NA NA NA NA NA NA ...
## $ form_tp : chr "SA18" "SA18" "SA18" "SA17A" ...
## $ file_num : int 1091718 1146165 1146165 1077404 1091718 1091718 1146165 1146165 1091718 1146165 ...
## $ tran_id : chr "C4725643" "SA18.90357" "SA18.120784" "VPF7BKZGYE4" ...
## $ election_tp : chr "P2016" "G2016" "G2016" "P2016" ...
## $ X : logi NA NA NA NA NA NA ...
## $ city : chr "CORPUS CHRISTI" "FORT WORTH" "WILLIS" "NORTH RICHLAND HILLS" ...
## $ lon : num -97.4 -97.3 -95.5 -97.2 -98.5 ...
## $ lat : num 27.8 32.8 30.4 32.9 29.4 ...
## $ party : chr "DEM" "REP" "REP" "DEM" ...
## $ cmte_nm : chr "HILLARY FOR AMERICA" "DONALD J. TRUMP FOR PRESIDENT, INC." "DONALD J. TRUMP FOR PRESIDENT, INC." "BERNIE 2016" ...
## $ cmte_dsgn : chr "P" "P" "P" "P" ...
## $ contb_receipt_dt_day : logi NA NA NA NA NA NA ...
## $ contb_receipt_dt_month: Date, format: "2016-04-01" "2016-09-01" ...
## $ contb_receipt_dt_year : int 16 16 16 16 16 16 16 16 16 16 ...
## cmte_id cand_id cand_nm
## C00575795:203928 P00003392:203928 Clinton, Hillary Rodham :203928
## C00574624:138799 P60006111:138799 Cruz, Rafael Edward 'Ted':138799
## C00577130: 79955 P60007168: 79955 Sanders, Bernard : 79955
## C00580100: 77916 P80001571: 77916 Trump, Donald J. : 77916
## C00573519: 23694 P60005915: 23694 Carson, Benjamin S. : 23694
## C00458844: 8984 P60006723: 8984 Rubio, Marco : 8984
## (Other) : 15096 (Other) : 15096 (Other) : 15096
## contbr_nm contbr_city contbr_st
## Length:548372 Length:548372 Length:548372
## Class :character Class :character Class :character
## Mode :character Mode :character Mode :character
##
##
##
##
## contbr_zip contbr_employer contbr_occupation
## Length:548372 Length:548372 RETIRED :142978
## Class :character Class :character : 29745
## Mode :character Mode :character NOT EMPLOYED : 24405
## LAWYER : 17517
## SELF-EMPLOYED: 13267
## (Other) :320321
## NA's : 139
## contb_receipt_amt contb_receipt_dt receipt_desc memo_cd
## Min. : 0.01 Min. :2013-10-21 Length:548372 Mode:logical
## 1st Qu.: 25.00 1st Qu.:2016-02-06 Class :character NA's:548372
## Median : 40.00 Median :2016-04-29 Mode :character
## Mean : 175.02 Mean :2016-04-27
## 3rd Qu.: 100.00 3rd Qu.:2016-08-12
## Max. :16600.00 Max. :2016-12-31
##
## memo_text form_tp file_num tran_id
## Mode:logical Length:548372 Min. :1003942 Length:548372
## NA's:548372 Class :character 1st Qu.:1077404 Class :character
## Mode :character Median :1096256 Mode :character
## Mean :1097493
## 3rd Qu.:1133832
## Max. :1146285
##
## election_tp X city lon
## Length:548372 Mode:logical Length:548372 Min. :-124.03
## Class :character NA's:548372 Class :character 1st Qu.: -97.74
## Mode :character Mode :character Median : -96.93
## Mean : -97.11
## 3rd Qu.: -95.47
## Max. : -71.06
## NA's :613
## lat party cmte_nm cmte_dsgn
## Min. :24.66 Length:548372 Length:548372 Length:548372
## 1st Qu.:29.76 Class :character Class :character Class :character
## Median :30.26 Mode :character Mode :character Mode :character
## Mean :30.99
## 3rd Qu.:32.76
## Max. :46.88
## NA's :613
## contb_receipt_dt_day contb_receipt_dt_month contb_receipt_dt_year
## Mode:logical Min. :2013-10-01 Min. :13.00
## NA's:548372 1st Qu.:2016-02-01 1st Qu.:16.00
## Median :2016-04-01 Median :16.00
## Mean :2016-04-11 Mean :15.81
## 3rd Qu.:2016-08-01 3rd Qu.:16.00
## Max. :2016-12-01 Max. :16.00
##
O dataset tratado contem 548.396 observações com 29 variaveis. O dataset original (sem tratamento) contém 18 variáveis.
É importante realizarmos uma analise sobre a distribuição das contribuições entre os candidatos. Para uma melhor compreensão das doações entre os candidatos, gerei dois graficos: o primeira, com a quantidade de doações por candidato e o segundo com o valor total arrecadado.
Nesta análise percebemos que a maior quantidade de doações se concentram nos 4 primeiros candidatos, mas é importante notar que quando ordenamos por valor total arrecadado, existe um inversão nas posições. Devido a essa inversão farei uma análise focada nos 7 candidatos com maior volume arrecada, no lugar de 5 candidatos que era a idéia inicial.
No histograma com os 7 principais candidatos, já os classifiquei por partido para identificação, com o intuíto de entender melhor como é a divisão entre as legendas. Para a difinição do partido, consideramos a classificação registrada na base de dados de candidatos obtida no site da FEC.
Uma analise mais detalhada desse aspecto será realizada na seção de gráficos bivariados.
## Warning: Removed 26251 rows containing non-finite values (stat_boxplot).
Como esperado, nota-se que a maior parte das contribuições se destinam aos candidatos democratas (DEM) e republicanos (REP), desta forma vamos considerar apenas estes 2 partidos nas analises.
Utilizei o boxplot para um melhor conhecimento das doações. No primeiro estão incluídas todos os registros. No segundo boxplot foram excluidos os outliers para uma melhor visualização.
É importante percebermos pelo Boxplot que a as contribuições para os candidatos republicanos, no geral, possuem um valor unitário maior que as doações feitas aos democratas. Isto deve trazer um impacto no valor total arrecadado por partido, apesar de ambos possuirem quantidades de contribuições semelhantes. Esta é uma analise a ser feita na seção de Gráficos Bivariados.
Na analise a seguir procurei fazer uma avaliação identificando como foram realizadas as contribuições ao longo do período. Iniciei a analise verificando a distribuição das doações por ano e, em seguida, realizei a analise por mês.
Por fim, foquei no periodo de 2016, que é onde ocorreram a maior quantidade de doações.
## Min. 1st Qu. Median Mean 3rd Qu.
## "2013-10-21" "2016-02-06" "2016-04-29" "2016-04-27" "2016-08-12"
## Max.
## "2016-12-31"
Na sequencia analisei a distribuição das doações por quantidade. Nesta analiíse foi possível perceber como as contribuições de menores valores são as mais frequentes. Esse já era um comportamento esperado um vez que muitos eleitores não possuem muitos recursos para doar mas procuram ajudar com uma quantidade que esta ao seu alcance.
Para uma analise de um espectro maior de valores, reduzi o binwidth em 10x. Na sequência reduzi o limite do eixo x com o objetivo de focar nos valores de contribuições mais frequentes, chegando no limite de um quartil de 95%. Por fim, apliqei uma escala logaritima para exibir melhor o valores com menos doações.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.01 25.00 40.00 175.02 100.00 16600.00
## 95%
## 700
Obervamos nos gráficos acima que a maior parte das contrinuições estão compreendidas entre U$ 10 e U$ 100, sendo a principal contribuição na faixa dos U$ 20, como percebido pela linha vermoelha no gráfico.
Abaixo uma comparação entre a quantidade de doações entre as eleições primárias (P2016) e gerais (G2016). Nela vemos que as primárias tiveram mais do dobra de contribuições. Isso pode ser explicado pelo fato de termos mais candidatos, além de um tempo maior para doações.
Para uma melhor visualização de como a quantidade de doações é inversamente proporcional ao valor, decidi classificar os valores de contribuição considerando as seguintes faixas de valores:
Esta classificação também vai nos ajudar a conhecer melhor as características das doações para cada candidato.
O valor de 2.700 foi escolhido por este ser o limite de doações por contribuinte, por etapa da eleição.
Para uma analise com base nas cidades, decidi aplicar um filtro inicial uma vez que existem cerca de 1300 cidades diferentes registradas. Desta forma decidi gerar o histograma apenas para as 30 cidades com maior número de contriuições.
Nesta analise percebemos que as principais cidades do estado então entre aquelas com mais números de contribuição, o que não surpreende já que se espera uma relação direta entre a quantidade de doações e a população.
O conjunto de dados possui 548372 registros de contribuições para o estado de TX, com 29 atributos no arquivo tratado e 18 no arquivo original.
A minha intenção neste trabalho é analisar como foi a distribuição de doações para os candidatos. Para esta análise, as principais atributos deste conjunto de dados são os candidatos (cand_nm), os valores das contribuições (contb_receipt_amt e contb_receipt_amt_range) e a data de contribuição (contb_receipt_dt, contb_receipt_dt_month e contb_receipt_dt_year).
Atributos realcionados a origem das contribuições serão muito úteis nesta analise. Entre elas estão:
Sim. Foram criados as seguintes variaveis:
Foram realizados tratamentos nos valores de contribuição. Para os valores negativos, foi considerado o valor absoluto. As contribuições zeradas foram eliminadas.
As datas de contribuição carregadas originalmente como caracter, foram convertidas para Date e quebrada em colunas separadas para mes e ano.
Conforme apresentado na seção de tratamento de dados, fiz uma ajuste nos nomes das cidades para eleminar as cidades iguais registradas com grafias diferentes. O mesmo tratamento foi realizado para a ocupação dos contribuintes.
Foi feito também um tratamento para os tipos de eleição inválidos.
Todos os tratamentos foram realizados num script python a parte tratarDados.py.
Aqui fiz uma analise das distriuição dos valores ao longo do tempo. No primeiro gráfico foi feita uma analise mais ampla por todo o período compreendido no dataset. No segundo reduzi o faixa de valores para o ano de 2016 e foi considerada as contribuições realizadas dentro de 99% da amostragem.
Nesta analise percebemos que os valores doados se iniciaram principalmente no 2º trimestre de 2015 com um média ligeiramente maior, reduzindo a partir de agosto de 2015 e se mantendo com pouca variação até o final de 2016.
Já o valor máximo das contribuições tem uma redução a partir de maio/2016.
Foram demarcados 3 indicadores de valores para este gráfico:
Na sequencia avaliei o valor total e a média e mediana dos valores de contribuições no tempo.
#Criei uma estrtura base do gráfico para, na sequencia, adicionar os layers
#especificos de cada gráfico
g <- ggplot(aes(x = contb_receipt_dt_month, y = contb_receipt_amt),
data = USACampaign)+
theme(axis.text.x = element_text(angle = 45, hjust = 1))+
scale_x_date(date_breaks = "2 months",
date_minor_breaks = "1 months",
date_labels = "%b/%Y")
g+
geom_line(stat = 'summary', fun.y = sum, color = 'blue')+
ggtitle('Valor total das contribuições no período')
g+
geom_line(stat = 'summary', fun.y = mean, color = 'red')+
geom_line(stat = 'summary', fun.y = median, color = 'orange')+
ggtitle('Evolução das médias é medianas das contribuições no período')
Nos primeiros gráficos desta seção podemos perceber a presença de faixas horizontais bem definidas para os valores doados com mais frequncias. Estes normalmente são valores arredondados Uma faixa bem definida é a 2700 dolares, que era o limite máximo permitido para pessoas físicas (Limites de contribuições - FEC). Considerando eleições primárias e geral, é possível uma doação de $5.400,00 (2.700 para cada).
Apesar destas regras, é possível se notar valores de doações acima este limite, necessitando uma pesquisa para entender as regras de contribuições. Grande parte dessas doações se destinam a Ted Cruz como podemos ver nas analises abaixo.
##
## Clinton, Hillary Rodham Cruz, Rafael Edward 'Ted'
## 0 199
## Sanders, Bernard Trump, Donald J.
## 0 0
## Carson, Benjamin S. Rubio, Marco
## 6 2
## Bush, Jeb Paul, Rand
## 3 0
## Fiorina, Carly Johnson, Gary
## 0 0
## Kasich, John R. Huckabee, Mike
## 0 0
## Perry, James R. (Rick) Walker, Scott
## 0 0
## Stein, Jill Santorum, Richard J.
## 0 0
## O'Malley, Martin Joseph Christie, Christopher J.
## 0 0
## McMullin, Evan Graham, Lindsey O.
## 0 0
## Webb, James Henry Jr. Jindal, Bobby
## 0 0
## Lessig, Lawrence Pataki, George E.
## 0 0
## Gilmore, James S III
## 0
## [1] 210
Estas mesmas faixas podem ser percebidas quando analisamos a os valores de contribuição por candidato, como visto abaixo. Percebe-se também, como já visto no histograma por faixa de valor doado, que a maioria das contribuições estão abaixo de U$ 500,00.
Abaixo temos o comportamente das doações ao longo do tempo para os 7 principais candiatos. Aqui é muito interessante como estão distribuidas as contribuições para os candidatos republicanos. Trump quase não possuia doações nas primárias e passou a ser o destino de grande parte das contribuições republicanas nas eleições gerais após Ted Cruz sair da disputa.
Nesta sequencia de gráficos vemos as relações entre os 7 candidatos citados anteiormente e os valores de contribuição. Ao contrário do que normalmente seria esperado, o candidato com mais contribuições não é o mesmo com maior valor arrecadado. O candidato Jeb Bush, apesar de possuir menos de 5% das contribuições de Bernard Sanders, conseguiu arrecadar um pouco que este ultimo. No caso especial de Jeb Bush, isto pode ter relação com o fato do Texas ser o seu estado Natal, além da sua relação com os outros 2 ex-presidentes Bush (pai e irmão).
## # A tibble: 7 x 4
## cand_nm qtde total media
## <fctr> <int> <dbl> <dbl>
## 1 Clinton, Hillary Rodham 203928 23341676 114.46038
## 2 Cruz, Rafael Edward 'Ted' 138799 33971577 244.75376
## 3 Sanders, Bernard 79955 3721950 46.55056
## 4 Trump, Donald J. 77916 16373590 210.14413
## 5 Carson, Benjamin S. 23694 3830273 161.65580
## 6 Rubio, Marco 8984 4909035 546.41970
## 7 Bush, Jeb 3578 4523399 1264.22557
Um comportamento semelhante pode ser observado quando analisamos os 2 principais partidos (Democratas e Republicanos). Embora os democratas tenham uma quantidade de contribuições maior do que a dos republicanos (feitas principalmente em nome de Hillary Cinton), o valor arreacadado do segundo é quase o dobro do primeiro, corroborando com a analise feita na seção anterior, a partir dos boxplot.
No entanto analisando pelo tipo de eleição, percebe-se que o valor total doado para cada tipo segue a tendencia do histograma apresentado na primeira seção.
Na distribuição das doações entre as cidades do estado do TX, temos Austin em segundo, atrás apenas da cidade de Houston, porém quando analisamos o valor total, Dallas vem em segundo, deixando Austin em terceiro. Isto poderia estar relacionada a renda media de cada cidade mas sem os dados de renda média por município, não é possível uma analise mais apurada.
Na análise dos quartis dos valores por municipio, temos uma situação bem interessante, onde a maioris das cidades possui um valor de U$ 50 em seu 3º quartil.
Por fim fiz uma analise da distribuição geográfica das doações com base nas informações de longitude (lon) e latitude (lat) recolhidas na base de dados de zipcode.
Como esperado, a maioria das doação estão concentradas na parte leste do estado, onde se localizam as cidades com maior quantidade de contribuições: Houston, Austin, Dallas e San Antonio.
A partir da analise com base em duas variáveis, notamos que embora exista uma tendencia de crescimento de doações ao longo do tempo, o mesmo não acontece com o valor total recebido, apresentando um comportamento variavel, sem uma tendencia.
Outra variação notada é a de redução do valor máximo das contribuição a partir de maio/2017. Acredito que essa redução se deva a alguma regulamentação para as eleições gerais mas não consegui encontrar dados que me comprovassem essa teoria.
Ao fazermos uma análise mais detalhada por candidato, notamos que o candidato Ted Cruz possui muitas doações acima de U$ 5.400 (199 contra 11 para os demais candidatos). Essas doações elevaram bastante o valor médio de suas doações fazendo com que fosse o candidato com a maior arrecadação, embora Hillary Clinton tivesse muito mais doações a seu favor. Essa maioria se deve ao fato de Clinton ter disputado as prévias e gerais. Quando analisamos apenas as prévias, Ted Cruz foi o candidato com mais doações.
Na distribuição dos valores por candidato, vemos claramente como existe um migração das doações dos republicanos para Donald Trump ao fim das primárias. Ted Cruz foi o candidato preferido do estado e destino da maioria das doações nas primárias, mas com a vitória de Trump dentro do partido republicano, muitas doações passaram a ter Trump como beneficiado.
Uma observação interessante foi em relação ao boxplot dos valores por municípios. Na grande das 30 cidades com mais contribuições, o 3º quartil possui um valor de U$ 50. Considerando o tamanho da base e diversidades de valores possíveis para doação, essa é uma situação bem incomum.
Com base nas análises, não consegui identificar nenhum relacionamento forte em entre as variáveis analisadas. Parece haver uma relação entre o tamanho dos municípios e a quantidade de doações, no entanto, sem informações de população não é possível fazer esta analise.
No primeiro gráfico adicinamos a váriavel de cor ao gráfico apresentado na seção anterior para identificar as doações referente as primárias e as gerais. Nele fica ainda mais claro a mudança do destino das doaçoes republicanas para Donald Trump.
No gráfico abaixo analisei o total de doações por mês e partido, destacando os valores de contribuição nas faixas definidas. Focamos nos partidos democrata e republicano e nos anos de 2015 e 2016 por serem os responsáveis pela maioria dos dados.
Podemos perceber como os candidatos democratas tiveram um valor de doação bem superior ao dos candidatos democratas. Em parte, isso se deve ao maior numero de contribuições na faixa mais alta de doações. Vemos que os democratas quase não tiveram doações acima de 2700 reais (apenas 17 contra 1765 dos republicanos)
Uma outra observação importante é da diferença de valores recebidos em 2015. Isso se deve principalmenteas doações recebidas pelo candidato Ted Cruz. Entre os republicanos é possível notar que as principais doações no segundo semestre de 2016 se destinaram a Donald Trump. Esta mudança no destino das doações ocorre após o final das primárias no estado do Texas, umas vez que Ted Cruz, vencedor no estado, não se manteve na disputa da vaga para presidente.
Entre os democratas, nota-se que a maior parte das doação se destinaram a Hillary Clinton.
Ted Cruz e Jeb Bush tiveram um apoio considerável em 2015 com as doações dos texanos. Isto se deve principalmente do Texas ser o estado onde Cruz é senador e o estado natal de Jeb Bush.
##
## (0,100] (100,500] (500,2.7e+03] (2.7e+03,1.66e+04]
## DEM 254082 23229 6815 17
## GRE 215 125 24 0
## IND 118 73 6 0
## LIB 725 509 102 0
## REP 193233 47765 19510 1765
## UNK 20 28 11 0
No gráfico seguinte, notamos que a maior parte doações acima de 2700 foram no ano de 2015 enquanto as doações de menores valores ocorreram principamente em 2016, o que explica o comportamente citados anteriormente.
Por fim fiz uma análise das faixas de contribuição ao longo do tempo para os 2 candidatos que disputaram a presidencia em 2016. Nele fica claro mais uma vez o aumento de contribuições para Donald Trump após as primárias. Também vemos um crescimento das contribuições de menor valor para Hillary Clinton (até U$ 500).
Um dos atributos derivados que foi de grande importancia na analise foi o relacionado a faixa de valores doados (contb_receipt_amt_range). Com ele foi possível entender melhor o comportanto das doações para os candidatos e partidos ao logo do período avaliado.
Outra observação foi em relação as doações no período. Pelas analises conseguimos notar claramente o comportamento do contribuintes para as primárias e as gerais. A separação das datas por mês permitiu uma analise mais homogenia no periodo.
Como citado anteriormente, uma das interações que foram contra minha intuição era a de que o valor total das contribuições fosse diretamente relacionada a quantidade de doações. Em várias analises percemos a influencia do valor médio de contribuição. Em diversos classificações realizadas percebemos que haviam situações em que doações em menores quantidades geravam um maior valor recebido, devido ao valor unitário de cada uma das contribuições.
Um outro interação interessante foi a mudança das contribuições republicanas de Ted Cruz para Trump ao fim das primárias. Ted Cruz era o candidato preferido do estado e foi o principal beneficiário das doações. Com Cruz fora da disputa, as contrinuições dos eleitores do partido migraram para Trump.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
O primeiro gráfico foca na distribuição de doações para os 3 candidatos com maior valor recebido em doações. Esta escolha foi feita considerando que entre estes candidatos está o escolhido nas primárias do Texas (Ted Cruz) e os dois candidatos que disputaram a presidência dos EUA em 2016 (Hillary Clinton e Donald Trump).
Esta analise se baseia no valor arrecadado ao longo do período de doação para cada candidato. Nele podemos notar algumas características interesantes após o fim das primárias (indicada pela linha vermelha pontilhada).
O primeiro é a mudança das doações dos eleitores republicanos de Cruz para Trump. Isso se explica pelo fato que Ted Cruz era o candidato preferido no estado, justficando o enorme volume doado a ele para as primárias e, com a sua saída da disputa, as doações republicana se voltaram para Donald Trump.
O segundo fator é o grande aumento na quantidade de doações a Hillary Clinton na a eleição final. Esse comportamento poderia ser explicado por alguns fatoeres como a efeito “anti Trump” e a reta final da corrida pela presidencia americana.
Quando analisamos os valores em um grafico de barra, vemos facilmente a influencia das doações de maiores valores no montante total arrecadado por Ted Cruz.
Neste gráfico procurei analisar o valor total de doações comparado a quantidade para os partidos. Nele fica claro a diferença no valor total de contribuições entre os partidos no ano de 2015 e inicio de 2016. Vemos que nos primeiros meses de 2016, embora a quantidade de contribuições tenha sido semelhantes (57% dos republicanos vs 43% dos democratas), o valor arrecadado para os republicanos é bem maior (70% dos republicanos vs 30% dos democratas).
No segundo semestre de 2016, época das eleições gerais, vemos um comportamento interessante. Apesar dos democratas terem conseguido uma quantidade maior de doações, o republicanos receberam um montante maior. No mês de out/2016, com motante arrecadado bem próximo, fica bem claro que o valor médio das contribuições dos republicanos é maior neste periodo. Neste mes tivemos 81,65% das doações para os democratas mas o valor total das contribuições equivaliam apenas a 49,3% do total.
Como já haviamos notado nos histogramas, as quantidades de doações do demais partidos são insignificantes para nossa analise, tanto em valor total quanto em quantidade.
## # A tibble: 15 x 4
## city qtde total media
## <fctr> <int> <dbl> <dbl>
## 1 HOUSTON 71294 19233415.5 269.7761
## 2 DALLAS 41118 12856245.9 312.6671
## 3 AUSTIN 57745 8261189.4 143.0633
## 4 SAN ANTONIO 30240 4623954.7 152.9086
## 5 FORT WORTH 16307 2851992.3 174.8937
## 6 SPRING 12167 2738123.9 225.0451
## 7 MIDLAND 3998 1946406.9 486.8451
## 8 PLANO 9603 1361485.4 141.7771
## 9 BEAUMONT 2599 949017.4 365.1471
## 10 EL PASO 7763 877149.5 112.9910
## 11 MCALLEN 2368 863173.7 364.5159
## 12 SUGAR LAND 5102 859674.7 168.4976
## 13 FRISCO 4200 818825.0 194.9583
## 14 AMARILLO 3755 779797.2 207.6690
## 15 KATY 6063 779087.4 128.4987
Este gráfico apresenta as 10 maiores cidades em valor de doação entre os 7 candidatos com mais contribuições. Nesta analise temos algumas observações inesperadas. Por exemplo, para o candidato Marco Rubio, a cidade de Houston teve a maior quantidade de doações, porém Dallas teve um valor maior total de contribuições.
Este grafico nos permites as seguintes analises:
No início da projeto eu tinha em mente fazer utilização apenas dos dados disponíveis no dataset. A partir dele comecei a fazer a análise das distribuição de valores do estado de NY. Neste ponto me deparei com as questões citadas no início do documento, que me fizeram mudar minha análise para os dados de outro estado, o Texas.
Durante as primeiras análises percebi que muitos dados necessitavam de trartamento e então resolvi preparar um script em Python para realizar alguns ajustes. Outra observação feita com inicio do trabalho, foi que a necessidade de mais dados para análise e exclusão de algumas informações desnecessárias no dataset.
Um ponto importante que notei é que só consegui evoluir no trabalho a partir do momento que deixei claras quais eram os pontos que eu prentendia verificar. Antes disso era muito complicado encontrar quais gráficos deveriam ser feitos para a sequencia do trabalho.
Uma dificuldade que tive foi de encontrar as regras sobre o limite de doações para os candidatos. Embora tenha encontrado a definição de limites de 2.700 por candidato, foi possível notar diversas contribuições acima deste valor, especialmente nas quantias de $5.400 e $10.800.
Encontrei grandes dificuldades em se trabalhar com os mapas, principalmente devido as divergencias de dados para cruzamento de informações entre as base de mapa e o dataset das eleições, em especial na normalização dos nomes do munícipios.
Apesar das dificuldades encontradas para a execução do trabalho, acredito que eu tenho obtido sucesso nas análises realizadas, conseguindo identificar o comportamento das doações realizadas na campanha presidencial de 2016 para o estado do Texas.
Durante as análises, foi interessante o comportamenta das doações para as eleições primárias e a gerais, mostrando como o canditato Donald Trump que não estava entre o candidatos com mais doações na primárias se tornou a opção dos republicanos.
Outro ponto interessante foi visualizar como o candidato Ted Cruz, vencedor das eleições primárias no estado, foi o destino da grande parte das doações acima do U$ 5.400,00 (199 de 210).
Nas analises também podemos ver que, de forma geral, os republicanos foram os alvos preferidos da contribuições do estado do Texas, principalmente quando analisamos o ano de 2015.
Para um futuro trabalho, seria interessante um estudo mais detalhado, onde tivessemos informações de renda e sexo dos contribuintes, bem como renda média da população nas cidades. Essa análise poderia apontar uma tendência nas doações realizadas em relação as preferencias por partido ou candidato.
Como tive dificuldades no cruzamento dos dados para trabalhar com os mapas, este um ponto que gostaria de explorar futuramente. Fiquei muito frustrado por não ter tempo hábil para ajustar as informações para apresentar alguns resultados de forma espacial, destacando as areas dos municípios. Era minha intenção:
Além das propostas iniciais, existem diversas analises que poderiam ser apresentadas com base no mapa do Texas.
Abaixo o link para referências usadas para este trabalho